AI资讯新闻榜单内容搜索-Agent

对话 MiniMax 择因：Agent 终会超过人类，我们又将何去何从？

Agent 的世界，四月还是山雨欲来。五月尚未结束，已然血雨腥风。

来自主题: AI资讯

9413 点击 2026-06-08 14:51

ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态

近年来，大语言模型在数学、代码等任务上的表现不断刷新上限，但到了医疗诊断、故障排查这类真实世界任务里，真正困难的是让多个智能体在不确定的动态环境中持续协作推理。

来自主题: AI技术研报

9727 点击 2026-06-08 09:48

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

6月4日，Arena.ai发布Agent Arena排行榜，用373,431次真实会话的数据，给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”（Net Improvement），用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好，负值说明不如随机。

来自主题: AI技术研报

9313 点击 2026-06-07 14:38

重写《给阿嬷的情书》结局：哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

早在 2023 年大模型快速发展期，哈工大张民教授立知大模型团队已开展多模态大模型驱动的视频内容创作智能体研究，并全球首发开源了电影制作智能体 FilmAgent 与动画片生成智能体 Anim-Director，受到国内外智能体研究者与文艺创作者的广泛关注。

来自主题: AI技术研报

7662 点击 2026-06-07 10:51

最恐怖的 AI 实验：没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》

最近，一个叫 Emergence AI 的团队做了一场社会实验。它们建了一个持久化的虚拟小镇，把市面上最顶级的几个大模型扔了进去，赋予它们行动的权限。它们想看看，当 AI 真正拥有了不受限制的 15 天，它们会建立一个乌托邦，还是一个疯人院。

来自主题: AI资讯

10149 点击 2026-06-06 17:51

热门Harness项目OpenSquilla：拯救烧token烧到绝望的Agent们，估值1亿

OpenSquilla 是一个开源 Agent Harness 框架（https://github.com/opensquilla/opensquilla）。它在 Agent 应用和模型之间加了一层运行中枢。OpenSquilla 由上海基元律动科技有限公司开发。基元律动成立仅几个月后，已完成首轮融资，估值高达1亿美元。

来自主题: AI资讯

9470 点击 2026-06-06 10:34